将四型人降落在倾斜的表面上是一个具有挑战性的动作。任何倾斜着陆轨迹的最终状态都不是平衡,这排除了大多数常规控制方法的使用。我们提出了一种深入的强化学习方法,以设计倾斜表面的自动着陆控制器。使用具有稀疏奖励和量身定制的课程学习方法的近端政策优化(PPO)算法,可以在不到90分钟的标准笔记本电脑上培训倾斜的着陆政策。然后,该政策直接采用真正的Crazyflie 2.1四型四面管,并成功地在飞行舞台上执行了真正的倾向着陆。单个策略评估大约需要2.5 \,MS,这使其适用于四型在四面体上的未来嵌入式实现。
translated by 谷歌翻译
几种慢性肺疾病,例如特发性肺纤维化(IPF)的特征是气道异常扩张。计算机断层扫描(CT)上气道特征的定量可以帮助表征疾病进展。已经开发了基于物理的气道测量算法,但由于在临床实践中看到的气道形态多样性,因此取得了有限的成功。由于获得精确的气道注释的高成本,监督学习方法也不可行。我们建议使用感知损失通过样式转移进行综合气道,以训练我们的模型气道转移网络(ATN)。我们使用a)定性评估将ATN模型与最先进的GAN网络(SIMGAN)进行比较; b)评估基于ATN和SIMGAN的CT气道指标预测113例IPF患者死亡率的能力。与Simgan相比,ATN被证明更快,更容易训练。还发现基于ATN的气道测量值始终比IPF CTS上的SIMGAN衍生气道指标更强大。通过转化网络使用感知损失来完善合成数据的转化网络是基于GAN的方法的现实替代方法,用于用于特发性肺纤维化的临床CT分析。我们的源代码可以在https://github.com/ashkanpakzad/atn上找到,该源代码与Airquant的现有开放源气道分析框架兼容。
translated by 谷歌翻译
已知熵正则化可改善在顺序决策问题中的探索。我们表明,这种相同的机制也可以导致在优化和估计的结构匪徒设置中对平均奖励的几乎偏差和较低的差异估计。最近已证明平均奖励估计(即人口估计)任务对于法律限制通常需要精确估计人口指标的公共政策环境至关重要。我们表明,利用熵和KL差异可以比现有基准在奖励和估计器方差之间取舍更好的权衡,同时保持几乎没有偏见。熵正则化的这些特性说明了桥接最佳探索和估计文献的令人兴奋的潜力。
translated by 谷歌翻译
这项研究研究了在美国国税局(IRS)为税收审计选择的系统中,算法公平性问题。尽管算法公平的领域主要围绕着像个人一样对待的概念发展,但我们却探索了垂直平等的概念 - 适当地考虑到个人之间的相关差异 - 这在许多公共政策环境中都是公平性的核心组成部分。应用于美国个人所得税体系的设计,垂直权益与不同收入水平的纳税人之间的税收和执法负担的公平分配有关。通过与财政部和国税局的独特合作,我们使用匿名个人纳税人微型数据,风险选择的审计以及2010 - 14年度的随机审计来研究税务管理的垂直平等。特别是,我们评估了现代机器学习方法选择审核的使用如何影响垂直权益。首先,我们展示了更灵活的机器学习(分类)方法(而不是简单的模型)如何将审计负担从高收入纳税人转移到中等收入纳税人。其次,我们表明,尽管现有的算法公平技术可以减轻跨收入的某些差异,但它们可能会造成巨大的绩效成本。第三,我们表明,是否将低报告的风险视为分类或回归问题的选择是高度的。从分类转变为回归模型,以预测不足的审计转变会大大向高收入个人转移,同时增加收入。最后,我们探讨了差异审计成本在塑造审计分配中的作用。我们表明,对回报的狭窄关注会破坏垂直权益。我们的结果对整个公共部门的算法工具的设计具有影响。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
We introduce a new setting, optimize-and-estimate structured bandits. Here, a policy must select a batch of arms, each characterized by its own context, that would allow it to both maximize reward and maintain an accurate (ideally unbiased) population estimate of the reward. This setting is inherent to many public and private sector applications and often requires handling delayed feedback, small data, and distribution shifts. We demonstrate its importance on real data from the United States Internal Revenue Service (IRS). The IRS performs yearly audits of the tax base. Two of its most important objectives are to identify suspected misreporting and to estimate the "tax gap" -- the global difference between the amount paid and true amount owed. Based on a unique collaboration with the IRS, we cast these two processes as a unified optimize-and-estimate structured bandit. We analyze optimize-and-estimate approaches to the IRS problem and propose a novel mechanism for unbiased population estimation that achieves rewards comparable to baseline approaches. This approach has the potential to improve audit efficacy, while maintaining policy-relevant estimates of the tax gap. This has important social consequences given that the current tax gap is estimated at nearly half a trillion dollars. We suggest that this problem setting is fertile ground for further research and we highlight its interesting challenges. The results of this and related research are currently being incorporated into the continual improvement of the IRS audit selection methods.
translated by 谷歌翻译
显示过次分辨率化,导致在亚组信息的各种设置下在罕见的子组上的测试精度差。为了获得更完整的图片,我们考虑子组信息未知的情况。我们调查模型规模在多种设置的经验风险最小化(ERM)下最差组泛化的影响,不同:1)架构(Reset,VGG或BERT),2)域(视觉或自然语言处理)3)模型尺寸(宽度或深度)和4)初始化(具有预先培训或随机重量)。我们的系统评价显示,模型大小的增加不会受到伤害,并且可以帮助所有设置的ERM下的最差群体测试性能。特别是,增加预先训练的模型大小一致地提高水鸟和多液体的性能。当子组标签未知时,我们建议从业者使用更大的预训练模型。
translated by 谷歌翻译
我们检查了来自水下滑翔机的声学多普勒电流探测器(ADCP)测量,以确定滑翔机位置,滑翔机速度和地下电流。但是,ADCP并未直接观察关注的量;相反,他们测量车辆和水柱的相对运动。我们研究了以前已应用于此问题的数学创新的谱系,发现了独立性的未陈述但不正确的假设。我们重新构建了一种形成当前和车辆导航联合概率模型的方法,该方法使我们能够纠正此假设并扩展经典的Kalman平滑方法。详细的模拟肯定了我们方法对计算估计的疗效及其不确定性。此处开发的联合模型为将来的工作奠定了基础,以结合限制,范围测量和稳健的统计模型。
translated by 谷歌翻译
科学研究的基本目标是了解因果关系。然而,尽管因果关系在生活和社会科学中的重要作用,但在自然语言处理(NLP)中并不具有相同的重要性,而自然语言处理(NLP)传统上更加重视预测任务。这种区别开始逐渐消失,随着因果推理和语言处理的融合,跨学科研究的新兴领域。尽管如此,关于NLP因果关系的研究仍然散布在没有统一的定义,基准数据集的情况下,并清楚地表达了将因果推论应用于文本领域的挑战和机遇,并具有其独特的属性。在这项调查中,我们巩固了整个学术领域的研究,并将其置于更广泛的NLP景观中。我们介绍了用文本估算因果效应的统计挑战,其中包含文本用作结果,治疗或解决混杂问题的设置。此外,我们探讨了因果推理的潜在用途,以提高NLP模型的鲁棒性,公平性和解释性。因此,我们提供了NLP社区因果推断的统一概述。
translated by 谷歌翻译
放射线学使用定量医学成像特征来预测临床结果。目前,在新的临床应用中,必须通过启发式试验和纠正过程手动完成各种可用选项的最佳放射组方法。在这项研究中,我们提出了一个框架,以自动优化每个应用程序的放射线工作流程的构建。为此,我们将放射线学作为模块化工作流程,并为每个组件包含大量的常见算法。为了优化每个应用程序的工作流程,我们使用随机搜索和结合使用自动化机器学习。我们在十二个不同的临床应用中评估我们的方法,从而在曲线下导致以下区域:1)脂肪肉瘤(0.83); 2)脱粘型纤维瘤病(0.82); 3)原发性肝肿瘤(0.80); 4)胃肠道肿瘤(0.77); 5)结直肠肝转移(0.61); 6)黑色素瘤转移(0.45); 7)肝细胞癌(0.75); 8)肠系膜纤维化(0.80); 9)前列腺癌(0.72); 10)神经胶质瘤(0.71); 11)阿尔茨海默氏病(0.87);和12)头颈癌(0.84)。我们表明,我们的框架具有比较人类专家的竞争性能,优于放射线基线,并且表现相似或优于贝叶斯优化和更高级的合奏方法。最后,我们的方法完全自动优化了放射线工作流的构建,从而简化了在新应用程序中对放射线生物标志物的搜索。为了促进可重复性和未来的研究,我们公开发布了六个数据集,框架的软件实施以及重现这项研究的代码。
translated by 谷歌翻译